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摘要 : 【 目的 ] 对 比较 观点 挖掘 和 相关 研究 的 主流 研究 方法 和 步骤 进行 综述 , 为 相关 领域 的 未 来 研究 提供 指导 。 
【文献 范围 ] 从 WoS, Google Scholar CNKI 中 以 “比较 观点 (Comparative Opinion)”、“ 比 较 句 识别 (Comparative 
Sentence)”、“ 比 较 关系 (Comparative Relation)" 55 AUFS e in] IEIR 55 篇 相关 文献 。[ 方法 ] 基于 文献 调研 ,介绍 
比较 范畴 的 划分 、 比 较 句 识别 、 比 较 关系 抽取 和 比较 观点 情感 分 析 等 研究 进展 ,[【 结果 ] 由 于 有 限 的 序列 规则 ， 比 
较 观 点 的 识别 难以 进一步 提高 ,对 隐形 比较 观点 的 识别 研究 鲜 有 提 及 , 并 且 现 有 的 抽取 技术 难以 很 好 地 提取 比 
较 要 素 。 此 外 ， 比 较 观 点 缺乏 细 粒 度 的 情感 分 析 。[ 局 限 】 缺乏 对 现 有 比较 观点 识别 方法 的 对 比分 析 。[ 结论 】 
本 文 提 出 的 研究 框架 可 以 为 未 来 进一步 研究 提供 参考 。 此 外 , 未 来 的 工作 重点 应 关注 通过 比较 观点 识别 追踪 洪 
在 竞争 对 手 , 分 析 产 品 竞争 力 ,以 及 提供 不 同 商品 的 对 比分 析 等 。 
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225 人 中 有 211 人 认为 以 下 评论 非常 有 用 
育 言 会 言语 说 几 句 大 实话 
1 5 | 留言 者 EYA 前 500 名 评论 人 于 2014 年 3 月 24 日 
RANI ”已 确认 购买 
入 手 70D 我 考虑 了 一 个 月 。 当 然 不 是 6000 快 的 花费 而 举 棋 不 定 ， 主 要 是 在 D7100、60D、70D 之 间 做 了 大 量 的 对 比 


比较 是 人 们 认识 事物 的 基本 方法 。 将 多 个 事物 加 和 
以 对 照 ， 可 以 发 现 其 在 某 些 方面 的 相似 性 或 差异 性 11。 
尤其 在 商业 领域 , 常言 “不 怕 不 识 货 , 就 旧 货 比 货 "。 消费 
者 常 借助 于 与 其 他 同类 产品 的 比较 来 进行 购物 决策 5”]。 v ame 
对 于 商家 而 言 , 通过 比较 能 够 体现 出 产品 的 竞争 优势 Re DSOMIERUSIE 
和 不 足 , 为 市 场 营销 策略 以 及 产品 改进 提供 依据 5。 作为 常见 的 表达 方式 ， 比 较 句 有 助 于 评论 者 更 加 

近年 来 , 社会 化 媒体 日 益 普 及 , 为 消费 者 发 布 自 立场 鲜明 地 陈述 观点 趾 , 购物 前 , 消费 者 倾向 于 查询 相 
己 对 于 产品 的 观点 和 体验 提供 了 广阔 的 平台 。 在 线 评 — 关 产 品 的 在 线 评论 ， 从 不 同 角 度 对 产品 进行 比较 ， 从 
论 作为 承载 消费 者 观点 和 建议 的 载体 ,， 蕴含 着 大 量 的 。 而 形成 自己 的 判断 "1。 但 是， 由 于 信息 过 载 等 问题 ， 
HELP. anf 1 所 示 , 并 且 主 要 以 比较 结构 句 。 导致 大 多 数 用 户 没有 足够 的 时 间 和 精力 浏览 全 部 信息 ， 
式 的 形式 展现 [9 。 难以 形成 有 效 的 、 高 质量 的 决策 信息 中。 
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因此 ， 有 效 地 识别 在 线 评论 的 比较 信息 ， 可 为 
观点 要 素 抽取 、 词 语 倾向 性 分 析 提 供 数据 基础 ， 也 可 
为 消费 者 和 商家 做 出 科学 决策 提供 技术 支持 一 ”。 面 
向 在 线 评论 的 比较 观点 挖掘 是 综合 语言 学 、 机 器 学 
习 与 自然 语言 处 理 于 一 体 的 研究 "涉及 文本 
分 类 、 实 体 提 取 、 观 点 挖 气 、 情 感 分 析 等 领域 中。 
这 些 研究 取得 了 一 定 进展 , 但 鉴于 在 线 评论 比较 信 
息 识别 与 提取 具有 自身 特殊 性 与 复杂 性 ,目前 仍 处 
于 探索 阶段 。 

比较 句 最 朴素 的 定义 为 “含有 比较 结构 和 比较 特 
征 词 的 语句 外 ”指出 比较 句 包 含 一 定 的 结构 ， 因 
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此 可 以 将 这 种 类 型 的 比较 句 通过 模式 来 表达 [“。 但是， 
对 于 复杂 的 在 线 文 本 , 含有 特定 比较 结构 或 比较 词 的 
语句 不 一 定 是 严格 意义 上 的 比较 名 5 3。 另外 , 还 有 
更 多 的 比较 名 不 具有 统一 的 结构 或 包含 特定 的 比较 词 
语 !… 4。 本 文 研究 的 对 象 是 在 线 评 论 , 针对 评论 中 的 
比较 句 采 用 如 下 概念 : 表达 不 同事 物 在 属性 或 特征 上 
差别 的 语句 >>。 

基于 现 有 的 比较 观点 挖掘 ,本 文 将 相关 研究 归 为 
4 部 分 : 比较 句 式 研究 、 比 较 名 识别 、 比 较 关 系 提取 、 
比较 观点 倾向 性 分 析 。 研 究 框架 如 图 2 所 示 , 这 4 部 
分 既 独 立 ， 又 相互 联系 。 
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图 2 本 文 归纳 的 比较 观点 挖掘 研究 框架 


其 中 ， 比 较 句 式 研 究 主要 分 析 比 较 句 的 语法 结 
构 、 语 义 、 显 性 和 隐 性 比较 句 的 特点 ;比较 名 识别 基 
于 比较 句 式 的 研究 成 果 ， 进行 比较 句 的 自动 识别 , 这 
里 涉及 自然 语言 处 理 、 机 器 学 习 等 技术 ， 确 保 准 确 率 
与 召回 率 ; 比较 关系 提取 是 对 已 识别 好 的 比较 句 , 采 
取 语 义 角色 标注 等 技术 进行 比较 关系 抽取 ,获得 比较 
主体 、 客 体 、 属 性 、 结 果 ; 比较 观点 倾向 性 分 析 是 针对 
抽取 的 要 素 , 挖掘 比 较 主 体 和 客体 的 比较 观点 ,挖掘 情 
感 倾向 性 、 情 感 强度 , 找 出 主客 体 的 差别 。 最 后 将 比较 
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观点 挖 气 结 果 进 行 应 用 , 更 好 地 向 消费 者 和 企业 展示 。 
2 比较 句 式 研究 


21 基于 语义 的 比较 名 研究 

与 英文 不 同 ,中文 比较 句 不 具有 比较 级 或 最 高 级 
的 形态 。 另 外 ,普通 词语 、 成 语 以 及 谚语 等 也 可 以 表 
达 多 个 事物 间 的 比较 , 格式 上 灵活 多 变 , 这 给 比较 名 
的 识别 带 来 了 困难 。 早 期 的 研究 是 从 句子 语义 的 角度 
出 发 ， 认 为 凡是 含有 比较 和 对 比 含义 的 句子 都 是 比较 


WA, tn E salt HA CA ERE RS, TRIE”, EK 
越 没 规矩 ”"“ 云 是 白 的 , 山 也 是 白 的 ”算是 比较 句 ; 歼 
锦 昭 等 中 把 “与 其 写 死 文 , 不 如 说 活 话 ”看 作 是 表示 
“ 审 决 ”的 比较 句 。 这 样 一 来 ， 比 较 句 的 范围 很 宽泛 ， 显 
得 庞杂 。 事 实 上 ， 从 人 类 认 知 角度 看 ,表示 比较 语义 的 
语言 手段 是 多 样 的 , 既 可 以 通过 词汇 表示 ， 如 “更 慢 ”、 
“ 难 一 些 ” 也 可 以 通过 句法 手段 来 表示 ,， 如 “他 比 我 
Je", 甚至 通过 上 下 文 或 语 境 ， 如 “这 道 题 不 算 难 , JB 
道 题 才 难 呢 ”, 早期 研究 之 所 以 在 比较 句 的 划分 上 有 庄 
多 差异 , 原因 在 于 对 比较 的 范畴 不 加 区 别 ,只 从 意义 
的 角度 同等 对 竺 请 "5 ， 这 一 阶段 的 比较 句 可 以 称 为 
广义 的 比较 句 。 

英文 比较 句 带 有 鲜明 的 标志 词 , 表达 更 直接 。 
Sawadal 将 比较 结构 定义 为 两 个 事物 、 事 件 或 问题 在 
统一 尺度 下 进行 的 显 性 比较 。 这 个 定义 不 包含 原 级 和 
最 高 级 。 而 Jindal 等 [9 认为 原 级 和 最 高 级 是 比较 。 
Lerner 等 所 将 比较 名 定义 为 程度 上 的 量化 ,说 明 某 个 
事物 或 属性 的 优 劣 。Kennedy5 基 于 逻辑 的 角度 讨论 
了 比较 句 的 语义 差别 。Schwarzschild23 和 Ret? x jg 
程度 分 析 法 研究 了 差 比 句 的 语义 , 强调 了 两 个 事物 程 
度 值 的 不 等 关系 。 

22 ”语义 与 句法 结合 的 比较 句 研究 

这 一 阶段 注重 汉语 比较 句 在 句法 结构 上 的 特点 ， 
将 语义 与 形式 结合 起 来 , 考虑 标志 词 与 句法 结构 形式 ， 
这 为 比较 句 的 自动 识别 提供 了 思路 。 

学 者 研究 了 比较 的 范畴 , 将 复杂 的 汉语 比较 句 进 
行 分 类 , 如 表 1 Hp. BARERA ERU. oap 
都 研究 了 不 同类 型 比较 句 的 特点 , 对 比较 的 范畴 进行 
划分 。 对 于 英文 比较 句 ，Sawadal3，Kennedy20 和 
Rettt” 根据 词性 分 别 描 述 了 Nominal Comparatives , 


Adjectival Comparatives 、Adverbial Comparatives , 


Adjectival Superlatives, Adverbial Superlatives 这 些 类 
型 的 比较 句 ; Jindal 等 [门将 比较 名 分 为 4 种 类 型 : 
Non-Equal Gradable 、Equative 、 Superlative 、 Non- 
Gradable。 

在 比较 句 类 别 划 分 基础 上 , 学 者 研究 了 比较 句 
的 结构 问题 ,认为 汉语 比较 基本 形式 X+ 比 较 词 +TY+ 
范围 ”1。 这 一 形式 表明 , 采用 汉语 表达 比较 语义 
时 ， 先 陈述 比较 前 项 X 作为 主语 或 主题 ， 比 较 词 加 上 
比较 后 项 作为 状语 ， 比 较 点 (或 是 隐 性 的 ) 以 及 比较 结 
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R1 比较 句 的 分 类 


作者 比较 句 类 别 划 分 
Aj s ep AUSI FHEA, ŽA, ERA 
T— 类 同 、 比 拟 、 近 似 、 高 下 、 不 及 、 胜 过 、 
2 尤 最、 得 失 、 不 如 、 倚 变 


Xp AP 差 比 句 和 平 比 名 


Jindal 等 5 Non-Equal Gradable, Equative, 
Superlative, Non-Gradable 
Nominal Comparatives, Adjectival 


Sawadal?!, Kennedy?!! Comparatives, Adverbial Comparatives , 


和 Ret?! Adjectival Superlatives, Adverbial 


Superlatives 


果 作 为 谓语 , 确定 比较 所 依据 的 范围 标准 。 基 于 这 种 
形式 , 结合 汉语 特点 , 学 者 提出 5 种 基本 句 式 户 :“ 和 / 
跟 … 比 ( 较 )/ 相 比 ( 较 );“ 有 ”字句 ;“ 像 "字句 ;“ 比 ”字句 ; 
“于 ”字句 。 前 三 种 既 表 示 等 比 , 也 可 表示 差 比 , 后 两 
种 只 能 表示 差 比 。 语义 上 , 等 比 表示 被 比较 对 象 在 性 
质 、 程 度 上 相近 或 相等 , 差 比 表 示 相 互 间 有 差异 ,并 
不 相同 或 相似 。 句法 上 , 差 比 句 的 形式 变化 比 等 比 句 
复杂 。 学 者 细 分 了 比较 句 式 , 并 研究 了 不 同类 型 的 句 
法 标志 5 。 

不 同 于 中 文 比较 句 ， 英 文 比较 句 是 通过 形容 词 和 
副词 的 比较 级 或 最 高 级 来 表达 ， 即 考虑 含有 比较 语义 
的 词汇 来 分 析 英 文 比 较 句 的 语法 , 并 将 英文 比较 名 分 
为 正式 比较 与 非 正式 比较 请。 其 中 , 同比 结构 包含 : 
含有 as 的 同 级 比较 ; 比较 句 的 否定 结构 表达 同 级 比 
较 ; 含有 一 些 词语 短 句 ， 如 “in the same way", “be 
equal to”, "similar to”。 差 比 的 结构 既 可 以 通过 词组 
"better than", "superior to” 表 达 , 也 可 以 通过 词汇 
"above", "differs from”* 展 现 。 极 比 结构 表示 某 人 或 某 
物 在 特定 范围 内 最 突出 , 达到 最 高 程度 ， 用 最 高 级 来 
表示 。 研 究 发 现 广 ”2 ， 部 分 英文 比较 名 虽然 含有 比较 
指示 词 , 语义 上 却 无 比较 , 最 高 级 只 是 一 种 夸张 手段 ， 
用 于 加 强 语气 , 常用 来 表示 数量 、 时 间 、 程 度 等 含义 。 
例如 , “more than 350 persons", “the greatest pleasure" , 
“would better", “more or less”， 其 对 比较 句 识 别 的 干扰 
较 大 。 

2.3 ”比较 句 显 隐 性 研究 与 特殊 句 式 

基于 上 述 研究 成 果 , 结合 不 同 的 比较 词 和 句 中 的 形 
容 词 、 副 词 , 学 者 研究 比较 的 显 性 表达 、 隐 性 表达 、 否 
定形 式 、 比 较 的 程度 等 问题 ,并 对 特殊 比较 句 句 式 进 行 
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剖析 WY 对 比较 句 的 准确 识别 提供 了 理论 支持 。 

汉语 是 意 合 语言 ,词语 没有 形态 变化 , 语法 关系 
是 通过 词 序 和 虚词 体现 , 句子 常常 按照 逻辑 顺序 排 开 ， 
多 为 时 间 顺 序 。 以 “X+ 比 +Y+W”* 结 构 为 例 ， 它 体 现 出 
一 种 动态 和 顺 接 , 描述 比较 的 过 程 。 即 : 比较 前 项 X 
与 比较 后 项 Y 相 比 后 , 得 到 结果 W, 比较 后 项 Y WE 
结论 项 W 的 前 面 , 更 加 强调 Y, 表示 跟 Y 相 比 , 有 结 
论 W。 英 语 是 形 合 语言 , 词语 有 诸多 形态 变化 ,形式 
严谨 , 层次 分 明 ， 以 限定 动词 为 中 心 , 控制 各 成 分 间 
的 关系 。 以 “…er-than” 比 较 结 构 为 例 ， 它 描述 的 是 一 种 
状态 , 表达 比较 时 需要 用 形容 词 和 副词 的 比较 级 等 形 
式 。 如 “he runs faster than her”* 核 心 是 “run faster", “than 
her" 是 附加 解释 。“ 他 跑 得 比 她 快 ?表达 的 是 “ 跟 她 相 比 ， 
他 更 快 ” 强调 的 是 “ 比 她 ”。 

显 性 比较 和 隐 性 比较 广泛 存在 于 比较 句 中 心 ]。 显 
性 比较 名 含有 明显 的 比较 指示 词 ， 中 文 显 性 比较 句 常 
采用 “ 比 ”"“ 相 比 ”、“ 像 "” “一 样 "、“ 更 ”、“ 不 如 ”、“ 越 …… 
越 ……… ”等 标记 性 词汇 ; 英文 显 性 比较 句 则 含有 
"than", “cheaper”, "bigger", "best", "same", “ast 
as…” 等 词汇 以 及 含有 形容 词 和 副词 的 比较 级 、 最 高 级 
等 词汇 。 隐 性 比较 句 指 的 是 未 含有 明显 的 标记 词汇 ， 
但 在 语义 上 存在 比较 关系 的 句子 。 中 文 隐 性 比较 名 
如 “桌子 上 的 土 有 便 币 厚 ”, 在 语义 上 形成 了 比较 含义 ， 
但 没有 明显 的 标记 ; 英文 隐 性 比较 名 如 “This book is 
24 Yuan, and that book is $$” 和 叙述 了 两 个 比较 对 象 的 客 
观 情况 , 并 没有 明显 地 将 两 个 实体 进行 比较 , 但 从 语 
义 上 构成 了 比较 含义 。 事 实 上 , 针对 不 同类 型 的 句子 ， 
显 性 和 隐 性 比较 句 的 识别 效果 也 不 同 。 可 以 通过 前 后 
句 中 与 比较 有 关联 的 词句 得 以 识别 中 ; Kennedy? "1 对 
显 性 和 隐 性 比较 做 了 区 分 , 显 性 比较 是 指 在 事物 x 和 
y 之 间 基 于 可 分 等 级 的 性 质 g 排序 , 规约 含义 为 : x 拥 
有 g 的 程度 超过 y 拥有 g 的 程度 。 通 常 句 中 有 专门 的 
级 数 的 形态 变化 , 隐 性 比较 是 指 在 x 和 y 之 间 基 于 可 
分 等 级 的 g 排序 , 采用 g 原型 , 通过 语 境 或 描述 的 作 
JH, 表达 出 x 具有 g, 而 y 没有 。 例 如 他 比 你 年 龄 大 ( 显 
TE), 他 年 龄 大 ( 隐 性 )。 

一 些 特殊 比较 句 句 式 ， 如 “一 M 比 一 M”“X 比 N 
X5 NU, "X XE Y d, 都 VP” 也 引起 学 者 的 兴趣 ， 从 认 知 
的 角度 探究 了 这 些 句 型 的 含义 。 男 外 ， 比 较 句 中 的 否 
定 词 、 形 容 词 、 副 词 也 引起 关注 。 例 如 , 考虑 了 形容 
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词 在 比较 句 中 的 位 置 、 功 能 "1 考虑 程度 副词 (如 
"ye", uy 02528). 通常 , 带 “ 还 ”的 句 式 具 有 
比较 功能 和 比拟 功能 , WX HE YW”, “X HeY 
Y” 带 “更 ” 句 式 具 有 语义 层级 性 特征 , 如 “XX 比 Y 更 
W^, 比较 句 中 的 否定 句 式 有 “不 如 ”* 句 、“ 没 有 ” 句 、“ 不 
像 * 句 、“ 不 比 " 句 、“ 没 法 比 ” 句 , 否定 是 语言 表达 的 重 
要 手段 ”否定 比较 句 带 有 更 强 的 主观 性 和 不 确定 性 ， 
需要 针对 不 同 的 句 型 进行 分 析 ; 还 有 学 者 从 形式 语义 
学 的 角度 论证 了 不 同类 型 差 比 句 的 不 同 语义 形式 , 提 
出 用 传统 的 程度 分 析 法 分 析 形 容 词 差 比 句 ,动词 差 比 
名 更 适合 于 用 一 一 对 应 分 析 法 来 分 析 P。 


3 比较 句 挖掘 研究 


3.1 比较 名 识别 

尽管 对 比较 句 结构 进行 了 衣 析 ,并 总 结 了 党 用 名 
式 , 然而 , 这些 句 式 尚 没 有 以 数字 化 的 形式 存储 起 来 
为 计算 机 所 处 理 ; 男 一 方面 句 式 的 完备 性 也 有 待 完 
善 。 在 线 评论 作为 非 结 构 化 文本 ， 比 较 句 的 形式 更 是 
复杂 多 变 ， 党 包含 一 些 网络 用 语 。 因 此 ， 针 对 在 线 文 
本 ,寻找 比较 关系 的 识别 方法 并 构建 数字 化 形式 的 比 
较 模 式 库 ， 对 于 比较 观点 的 挖掘 具有 现实 意义 。 总 体 
而 言 , 在 线 文本 的 比较 名 识别 涉及 到 的 方法 有 基于 类 
别 序列 规则 的 识别 中、 基于 比较 模式 库 的 识别 MI 和 基 
于 特征 关键 词 的 识别 中 ,如 表 2 所 示 。 

(1) 基于 类 别 序列 规则 的 识别 

类 别 序 列 规则 (Class Sequential Rules，CSR) 是 将 
类 别 序列 模式 应 用 到 比较 句 的 识别 ,形成 识别 规则 ， 
并 寻找 满足 用 户 定义 的 最 小 支持 度 约束 的 模式 , 为 比 
较 句 识别 提供 特征 输入 。Jindal 等 5 首先 提出 通过 
CSR 自动 识别 比较 句 的 研究 课题 。Huang 等 加 以 改 
yt, 将 该 方法 应 用 到 中 文 评论 中 的 比较 句 上 ,取消 了 
滑动 窗口 策略 , 将 句 中 每 个 分 句 作 为 一 个 序列 来 提取 
与 匹配 规则 ,也 使 得 诸多 非 比较 句 满 足 了 序列 规则 。 
如 “苹果 手机 没有 三 星 手 机 好 用 ”、“ 莹 果 手 机 没有 电池 
可 拆 缉 ”序列 规则 都 是 “n… 没 有 …n…v”。 因此， 有 学 
者 针对 这 一 问题 展开 研究 ,发现 比较 主体 和 比较 基准 
通常 位 于 比较 特征 词 和 CSR 序列 规则 的 两 侧 。 以 特征 
词 、 类 别 序列 规则 和 实体 对 象 信息 (主要 是 对 象 的 位 置 
和 数量 ) 作 为 特征 ， 对 比较 句 进行 了 有 效 识 别 C21; 另 
外 , Liu 等 所 也 利用 CSR 方 法 ,结合 统计 特征 进行 了 在 
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表 2 比较 名 识别 方法 


作者 关键 技术 


数据 来 源 识别 效果 


Jindal 4&&U3) CSR 


goy CSR， 序 列 生成 策略 , 模式 长 度 ,分 类 器 为 


Huang SVM 


CSR 和 特征 词 为 特征 , SVM 为 分 类 器 


CSR， 比 较 词 ,统计 特征 词 ， 分 类 器 为 SVM 


CSR 与 人 工 模式 库 结 合 


白 林 楠 等 3 句法 语义 规则 库 


8 


宋 锐 等 中 文 比较 模式 请 


T 


AARON ”基于 语义 分 类 的 规则 库 


ZOL 产品 论坛 中 的 笔记 本 评论 


ARER 
领域 


评论 , 论坛， 新闻 准确 率 79%， 召 回 率 81% 


准确 率 91.496, AEX 79.6%, 
F- 度 量 85.0% 


[道中 的 汽车 领域 和 数码 产品 准确 率 96.6%, A ER 88.696, 
F- 度 量 92.4% 


准确 率 84.396, 召回 率 82.4%, 


ZOL 中 的 产品 评论 


大 众 点 评 网 数据 


14 本 对 外 汉语 教材 和 HSK 考试 语 料 


IT168 产品 评论 网 评论 数据 


COAE2012 发 布 的 汽车 、 电 子 领 声 
语 料 


看 
F- 度 量 83.3% 


准确 率 99.8%， A EK 97.6%, 
F- 度 量 91.4% 


准确 率 95.696, 召回 率 85.496, 
F- 度 量 90.2% 


准确 率 77.096, 召回 率 80.0%, 
F- 度 量 78.56% 


X 
x 
z 


EMR 90.3%, AEX 95.3%, 
F- 度 量 92.7% 


线 评论 比较 句 的 识别 研究 ; 王 洪 伟 等 中 也 将 类 别 序列 
规则 与 人 工 模 式 库 相 结合 ,识别 中 文 在 线 评论 中 的 比 
较 句 ,获得 了 很 高 的 准确 率 与 召回 率 。 

(2) 基于 比较 模式 库 和 规则 库 的 识别 

该 方法 依靠 大 规模 的 比较 句 语 料 库 。 语 料 库 包 含 
比较 句 的 词 、 词 性 、 位 置 、 语 义 以 及 比较 属性 的 领域 
知识 等 特征 ,并 按照 比较 名 分 类 体系 将 其 划分 为 不 同 
类 别 。 比 较 句 的 比较 模式 以 正则 表达 式 存 储 在 XML 
文档 中 ， 每 个 模式 附 一 个 比较 类 别 标签 。 研 究 证 实 ， 中 
文 比较 模式 库 和 规则 库 能 够 较 好 地 实现 中 文 比 较 句 的 
自动 识别 1。 但 是 , 难以 识别 复杂 的 比较 句 , 为 此 ， 
学 者 考虑 了 比较 句 与 比较 要 素 之 间 的 “共生 关系 ” 构 
建 比较 特征 词典 系统 , 根据 汉语 比较 句 句 义 分 类 , 构 
建 比 较 句 识别 模式 库 。 比 较 模 式 库 和 规则 库 中 包含 
丰富 的 专家 知识 , 构建 完备 的 比较 模式 库 和 规则 库 对 
比较 句 识别 提供 保障 。 为 了 保证 识别 的 准确 率 , 提取 
比较 名 的 词性 、 位 置 、 语 义 等 特征 将 有 助 于 识别 效率 


Ganapathibhotla 等 U1、Park 等 B5 考 虑 了 英语 中 的 特征 
词汇 对 于 识别 的 影响 。Huang 等 E1、 黄 高 辉 等 5 Liu 
A&D*l He 等 59 研 究 了 在 线 评论 或 论坛 中 比较 句 的 特征 
关键 词 , 将 关键 词 应 用 到 比较 句 的 识别 , 显著 提高 了 
识别 的 准确 率 、 召 回 率 和 F- 度 量 。 研 究 发 现 , 很 难 依 
靠 一 个 词语 清楚 表达 比较 ,出现 关键 词 的 句子 未 必 是 
比较 句 ， 而 非 比 较 指示 词 与 其 他 词 搭配 后 也 能 形成 比 
较 句 式 , 为 此 需要 借助 于 由 若干 词 与 词性 所 构成 的 模 
式 来 提高 识别 的 准确 度 。 因 此 学 者 大 多 将 基于 特征 关 
键 词 的 识别 方法 与 其 他 技术 相 结合 07。 

在 线 评论 中 的 比较 名 的 识别 还 不 能 令 人 满意 。 特 
别 是 一 些 隐 含 的 表达 , 善 通 词语 、 成 语 以 及 谚语 都 可 
以 表达 事物 之 间 的 比较 , 这 给 在 线 评论 中 的 比较 句 识 
Arr o BRE o 
3.2 ”比较 关系 抽取 

识别 比较 句 后 , 需 对 其 中 的 比较 主体 、 比 较 客体 、 
比较 内 容 和 比较 结果 进行 提取 。 比 较 关系 形成 的 条 件 


—— 


的 提高 外 但是, 目前 比较 模式 库 和 规则 库 的 规模 还 不 
EK, 覆盖 的 内 容 还 有 待 进一步 扩充 。 

(3) 基于 特征 关键 词 的 识别 

该 方法 是 提取 句子 中 具有 比较 含义 的 词 , 将 其 作 
为 识别 比较 句 的 依据 , 包括 副词 (更 、 最 、 极 )、 比 较 词 
( 比 、 于 、 有 )、 比 较 实 词 (超过 、 一 样 、 差 不 多 ) 等 。 


是 比较 实体 在 相同 属性 上 形成 高 低 优 劣 , 并 且 是 在 某 
一 标准 上 的 比较 ， 比 较 后 要 形成 明确 的 结果 ， 如 表 3 
所 示 。 常 用 方法 有 标签 序列 规则 (Label Sequential 
Rules, LSR)”, 条 件 随 机 场 (Conditional Random Fields, 
CRF)P? . jH X. fh f& Ek iE (Semantic Role Labeling, 
SRL)P"I, 
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表 3 比较 关系 抽取 方法 


识别 要 素 中 能 够 达到 的 最 好 效果 


Jindal &"! LSRs 和 keywords 


RPF CRF, 考虑 词性 , 语义 , 位 置 等 特征 
ESED? CRF 和 领域 词典 


李建军 六 SRL 


抽取 规则 库 


Hou 等 [3 SRL 


LIGO 基于 序列 模式 的 弱 监督 方法 


He 等 69 LSR， 比 较 要 素 命 名 特点 


评论 , 论坛 , 新 闻 


IT168 产品 评论 网 评论 数据 


含有 2000 个 中 文 比较 名 的 语料库 


Yahoo! Answers 中 的 问题 题目 


准确 率 86.1%， 召 回 率 62.1%, 
F- 度 量 72.2% 


准确 率 90.4%， 召 回 率 85.696, 
F- 度 量 88.0% 


百度 知道 中 汽车 领域 和 数码 领域 数据 准确 率 80%, A [n] 3& 92%, F- 度 量 85% 
消费 者 评论 网 站 抽取 的 1080 个 比较 句 


COAE2012 发 布 的 汽车 、 电 子 领 域 语 料 
测试 数据 集 


准确 率 78.096, 召回 率 80.096 


准确 率 46.6%, AER 48.9% 


准确 率 93.0%, A ER 90.0%, 
F- 度 量 91.5% 


准确 率 91.696, AEX 76.096, 
F- 度 量 83.3% 


360buy, ZOL, IT168 and Amazon 抽取 的 ”准确 率 92.196, 召回 率 89.396, 
手机 评论 数据 


F- 度 量 90.7% 


(1) 基于 标签 序列 规则 的 提取 

Jindal 等 中 采用 比较 关系 表示 比较 句 的 核心 语义 ， 
提出 5 元 组 的 概念 ， 即 关系 词 、 产 品 属性 、 实 体 1, 3C 
体 2、 比 较 类 型 ， 这 5 个 元 素 识别 是 通过 LSR 匹配 来 
实现 。LSR 对 英文 要 素 提取 的 效果 较 好 , 但 在 中 文 方 
面 并 不 理想 。 

(2) 基于 条 件 随 机 场 的 提取 

CRF 是 基于 最 大 炉 和 隐 马 尔 科 夫 模型 的 一 种 判 
别 式 概 率 无 向 图 学 习 模 型 ， 应 用 于 分 词 、 词 性 标注 和 
实体 识别 等 领域 。 

单独 的 比较 句 通常 只 含有 两 三 种 元 素 C， 或 缺少 
比较 客体 , 或 缺少 比较 主体 ,， 这 种 情况 对 于 评论 文本 
尤为 常见 。 因 此 ,选取 比较 主体 、 比 较 客体 及 其 上 下 
文 的 词 、 词 性 、 位 置 、 语 义 以 及 比较 属性 的 领域 知识 
等 特征 , 利用 CRF 模型 进行 中 文 比 较 关系 抽取 , 准确 
率 显著 提高 中; 还 有 学 者 考虑 了 比较 基准 中， 在 预定 
义 规则 的 基础 上 , 采用 CRF 算法 抽取 了 比较 主体 和 比 
较 基准 , 不 过 对 比较 基准 的 抽取 效果 不 理想 。 

(3) 基于 语义 角色 标注 的 提取 

语义 角色 标注 SRL 是 将 词语 序列 分 组 ,并 按照 语 
义 角色 对 其 分 类 。SRL 的 目的 就 是 找 出 给 定 句子 中 谓 
语词 的 对 应 语义 成 分 即 核心 语义 角色 (主语 、 宾 语 等 ) 
和 附属 角色 (时 间 、 地 点 等 )。SRL 只 针对 句子 中 的 部 
分 成 分 与 谓语 的 关系 进行 标注 , 属于 浅 层 语义 分 析 。 
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Kessler 等 中 "运用 SRL 对 英文 比较 句 的 元 素 进行 标注 
与 提取 , 效果 优 于 之 前 的 方法 。 但 是 ， 只 使 用 SRL 对 
中 文 比较 关系 提取 效果 较 差 , 为 此 进行 不 同 程度 的 改 
进 。 例 如 , 构建 混合 比较 模式 的 SRL 模型 ， 对 汉语 比 
较 句 进行 两 阶段 标注 中; 将 SRL 与 句法 分 析 树 相 结合 ， 
提出 语义 角色 分 析 树 局 ， 通 过 计算 两 棵 子 树 之 间 的 匹 
配 相似 度 抽取 上 比较 关系 ; 还 有 学 者 尝试 将 CRF 应 用 到 
SRL 中 P。 上 述 研究 取得 了 一 定 成 果 , 但 是 采用 SRL 
进行 中 文 标注 的 效果 还 有 待 提 高 ， 对 涉及 上 下 句 的 比 
较 信 息 提取 尚未 能 够 有 效 解 决 。 

此 外 , 还 有 基于 序列 模式 的 弱 监 督 方法 FE、 基于 
中 文 比 较 句 要 素 命 名 特点 的 抽取 B9 、 基 于 概念 层次 网 
络 的 中 英文 专利 文本 比较 句 提取 上 请 “1。 综 上 所 述 ， 比 
较 关 系 的 提取 尚未 形成 有 效 的 方法 ,未 来 的 研究 可 借 
鉴 信息 抽取 领域 的 实体 名 称 抽取 和 实体 属性 抽取 技术 。 


4 比较 观点 倾向 性 分 析 


比较 观点 倾向 性 分 析 的 核心 是 : 比较 对 象 之 间 相 
同 还 是 不 同 , CAA, BRAZ, J HATEEN 
何 。 因 此 ， 比 较 观 点 倾向 性 分 析 就 是 计算 两 个 或 多 个 
产品 的 情感 倾向 性 和 强度 , 涉及 到 情感 分 析 技 术 。 

情感 分 析 (Sentiment Analysis) 是 利用 文本 挖掘 
术 对 在 线 评论 进行 语义 分 析 , 旨 在 识别 用 户 的 情感 
“高 兴 ”* 还 是 “ 伤 悲 ”或 判断 用 户 的 观点 是 “赞同 ”还 


pr onm ME 


“反对 ”。 其 涵盖 多 个 研究 任务 , 例如 文本 的 主客 观 检 
ILL. 不 同 粒度 的 情感 分 析 中 ;产品 “特征 -观点 
对 "提取 等 (外 。 近 年 来 的 研究 围绕 粗 粒度 分 析 和 细 粒 
度 分 析 展 开 , 粗 粒度 情感 分 析 采 用 基于 模型 的 方法 、 
无 监督 方法 和 半 监督 方法 ; 细 粒 度 情感 分 析 采 用 基于 
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等 扑 开 发 了 针对 产品 竞争 分 析 的 观点 比较 系统 ; 
Lerman 4&5! pau] 等 外 通过 生成 两 个 实体 的 比较 概要 
信息 ,进行 观点 比较 和 差异 性 挖 气 研 究 ; Fang 等 中 在 
LDA 基础 上 研究 了 比较 观点 的 建 模 问题 ， 提 出 

Cross-Perspective Topic 模型 , 引入 了 “主题 -观点 ”分 


语义 和 机 器 学 习 的 方法 。 研 究 表明 ,即使 是 极 性 相同 
的 词汇 其 所 表达 的 情感 强度 也 有 可 能 不 同 , 例如 
“好 ”和 “优秀 ” 情感 极 性 都 是 正面 , 但 是 后 者 比 前 者 
的 强度 大 得 多 。 此 外 , 程度 副词 也 可 以 改变 被 修饰 词 
EAT f gr HE UOI 

情感 分 析 技 术 为 比较 观点 倾向 性 研究 提供 了 技术 
支持 , 但 是 二 者 存在 一 定 区 别 。 情 感 分 析 是 针对 某 个 
产品 表达 消费 者 是 否 满意 ,而 比较 观点 是 针对 两 个 以 
上 产品 的 情感 倾向 分 析 。 比 较 观 点 倾向 分 析 是 情感 分 
析 的 进一步 延伸 ， 属 于 句子 级 的 情感 分 析 。 在 研究 多 
个 产品 的 情感 倾向 时 , 不 仅 需要 考虑 观点 词语 本 身 的 
倾向 和 强度 ， 还 需要 考虑 比较 主体 和 比较 客体 的 位 置 ， 
以 及 比较 词 本 身 的 情感 方向 等 四 因素 。Ganapathibhotla 
等 号 将 英文 比较 句 分 为 有 倾向 和 无 倾向 ， 对 于 比较 词 
和 特征 词 都 无 倾向 时 , 采用 PMI 方法 计算 倾向 值 。 有 
学 者 借鉴 了 基于 情感 词典 的 倾向 性 分 析 方 法 “9, 构建 
了 基础 情感 词典 、 领 域 词 典 、 属 性 词典 、 副 词 词典 及 
一 个 比较 句 规则 库 , 结合 比较 句 的 句 式 特征 判断 比较 
实体 的 情感 倾向 性 , 但 是 这 种 方法 并 不 能 在 各 领域 普 
遍 适 用 。 

另外 ,在 评论 系统 中 ,同一 比较 句 会 出 现 针对 
相同 比较 实体 的 多 个 属性 的 比较 , 并 且 比 较 结果 不 
Bidet, fp, SER 6 5 —R S6 相 比 ,系统 占 优 ， 
不 过 画面 色彩 略 差点 .”， 比 较 主 体 是 iPhone 6， 比 较 客 
体 是 Galaxy S6， 比 较 属 性 有 两 个 , 分 别 是 系统 性 能 、 
屏幕 色彩 。 可 以 看 出 , 苹果 的 系统 性 能 比 三 星 好 , 但 屏 
幕 色彩 不 如 三 星 。 对 于 系统 性 能 ，iPhone 6 为 正面 ， 
Galaxy S6 为 负面 ; 对 屏幕 色彩 而 言 ，Galaxy S6 为 正 
面 。 为 此 ， 如何 有 效 提 取 包 含 多 个 物体 、 多 个 特征 的 
比较 句 中 的 观点 ,尚未 获得 有 效 的 解决 方法 。 


5 比较 观点 挖掘 的 应 用 


上 述 研 究 主要 是 从 在 线 评论 的 比较 句 中 提取 观 
点 , 但 是 ， 比 较 观点 不 仅仅 体现 在 比较 名 中 , 不 同文 
本 中 涉及 同一 个 产品 的 讨论 也 隐 含 着 比较 信息 。Liu 


L— 


布 , 模拟 了 在 不 同 视角 下 的 文档 观点 生成 过 程 。 

有 学 者 从 比较 观点 挖掘 之 外 的 角度 探讨 认 知 中 的 
比较 关系 -通过 Web 搜索 和 比较 两 个 对 象 的 完整 信息 ， 
揭示 它们 之 间 的 关系 "3 或 者 从 论坛 上 抽取 产品 的 比 
较 信 息 ,给 消费 者 提供 购物 参考 请 ; 学 者 还 尝试 从 评 
论 中 建立 产品 特征 情感 数据 库 , 根据 情感 的 倾向 性 构 
建 产品 比较 和 推荐 系统 "; 还 有 学 者 研究 了 大 量 文档 
集 之 间 的 共性 与 差别 , 通过 生成 概率 混合 模型 获得 不 
同文 档 之 间 的 主题 比较 信息 六 1。 

比较 是 抽象 的 概念 , 将 比较 结果 可 视 化 ,有 助 于 
比较 观点 的 明确 表达 。 例 如 ,网 络 分 析 技 术 把 实体 视 
为 节点 , 将 节点 间 的 关系 抽象 成 边 , 采用 PageRank 和 
HITS 算法 计算 节点 重要 度 ， 从 而 构成 产品 比较 网 络 中 。 
学 者 还 发 现 ,在线 评 论 包含 大 量 关 于 竞争 对 手 的 信息 , 
于 是 提出 图 形 模 型 提取 竞争 性 产品 的 比较 关系 并 将 其 
可 视 化 外, 分析 竞争 者 之 间 的 相互 依赖 关系 , 帮助 企 
业 发 现 潜在 的 风险 和 设计 新 产品 的 营销 策略 1。 


6 研究 评述 与 展望 


6.1 研究 评述 

基于 在 线 评论 的 比较 观点 挖掘 涉及 语言 学 、 自 然 
语言 处 理 、 机 器 学 习 等 多 个 领域 。 识 别 比较 句 、 提 取 
比较 关系 要 素 、 挖 掘 比较 观点 是 相对 独立 但 又 相互 联 
系 的 课题 ， 研 究 成 果 可 应 用 于 产品 竞争 情报 获取 、 商 
务 智能 挖掘 、 消 费 者 偏好 分 析 、 产 品 缺 陷 分 析 、 同 类 
产品 的 竞争 排名 P23]。 

目前 ， 针 对 在 线 评论 的 比较 句 识 别 , 提出 了 基 
于 序列 规则 、 基 于 比较 模式 库 、 基 于 特征 关键 词 的 
Jj id 165119033733548]- 针对 比较 关系 的 抽取 ,采用 了 
LSR, CRF, SRL 等 技术 50634229; 针对 比较 观点 的 挖 
掘 ， 采 用 了 情感 分 析 技 术 ”1。 但 是 ,相关 研究 面 
临 诸多 难题 : 

(1) 在 线 评论 中 比较 名 识别 的 准确 率 有 待 提高 

尽管 许多 研究 关注 在 线 评论 中 比较 句 的 识别 , 但 
是 对 于 非 结 构 化 的 在 线 评 论文 本 , 已 有 方法 的 识别 效 
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采 仍 不 理想 。 特 别 是 相对 于 英文 比较 句 ， 中 文 比 较 句 
句 式 类 型 多 而 杂 ， 基 于 规则 、 模 式 库 的 手段 尚未 全 面 
涵盖 ,或 待 建立 大 型 的 比较 模式 库 。 因此, 将 比较 的 语 
言 学 研究 成 果 引 入 比较 观点 挖掘 研究 工作 中 是 十 分 有 
必要 的 。 先 区 分 在 线 评论 中 比较 句 的 不 同类 别 , 再 结 
合 语言 学 成 果 , 通过 句 式 和 关键 词 的 匹配 , 构造 不 同 
类 别 的 规则 库 

Q) 隐 性 比较 名 的 识别 有 待 深入 

已 有 研究 对 含有 明显 比较 指示 词 的 比较 句 识别 效 
果 较 好 。 但 是 , 在 线 评论 是 非 结 构 化 文本 ,一 些 评论 语 
句 不 包含 明显 的 指示 词 , 但 同样 表达 比较 语义 。 对 这 
些 句 子 的 识别 尚未 形成 有 效 的 解决 方法 。 实 际 上 , E 
较 句 拥有 很 多 特点 ， 比 如 同一 个 评论 中 出 现 两 个 以 上 
产品 名 称 ,形容词 或 副词 短语 均 能 揭示 出 该 评论 包含 
比较 关系 。 因 此 , 将 语义 挖 据 、 关 联 规则 的 方法 引入 
便于 隐 性 比较 关系 的 识别 。 

(3) 比较 关系 抽取 效果 有 待 改进 

完整 的 比较 句 包 括 四 元 组 < 比较 主体 ， 比 较 客体 ， 
比较 属性 ， 比 较 结果 > ， 其中， 比较 主体 、 比 较 客 体 、 
比较 属性 可 以 归结 为 实体 。 就 词性 而 言 ， 比 较 主 体 、 比 
较 客 体 和 比较 属性 多 为 名 词 和 代词 类 型 的 实 词 ; 从 语 
义 而 言 , 它们 涉及 上 下 文中 有 概念 的 实物 及 属性 。 然 而 ， 
比较 的 主客 体 不 易 区 分 , 代词 不 能 有 效 匹配 ， 属 性 特征 
杂乱 。 因 此 , 将 现 有 的 实体 抽取 、 特 征 挖掘 等 研究 成 果 
应 用 在 比较 关系 抽取 上 可 以 获得 更 好 的 抽取 效果 。 

(4) 比较 观点 的 情感 倾向 性 及 其 强度 有 待 深入 
研究 

成 熟 的 情感 分 析 技术 可 应 用 于 比较 观点 的 情感 人 
向 性 分 析 。 比 较 主 体 是 基准 ， 比 较 客体 依附 于 比较 
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构造 产品 特征 比较 网 络 ,利用 网 络 中 的 节点 与 连接 ， 
能 够 获取 很 多 潜在 的 知识 。 
6.2 ”研究 展望 

学 者 分 别 从 字 、 词 、 句 的 角度 对 比较 观点 展开 人 研 
Fo 英语 形式 严谨 , 层次 分 明 ， 以 限定 动词 为 中 心 , 很 
好 地 控制 各 词语 成 分 间 的 关系 。 英 文 比较 句 注 重 词语 
的 搭配 , 带 有 鲜明 的 标志 词 。 例 如 , 通过 形容 词 和 副词 
的 比较 级 或 最 高 级 来 表达 比较 含义 。 找 出 句子 中 的 动 
词 ， 以 动词 为 核心 分 析 句 子 的 层次 结构 , 或 者 挖 气 句 
中 的 比较 词汇 , 能 够 实现 比较 句 的 识别 。 

而 汉语 作为 意 合 语言 ,句子 通常 按照 逻辑 顺序 展 
JF, 词语 无 形态 变化 。 中 文 比 较 句 更 多 地 注重 结构 上 
的 变化 , 识别 的 难度 较 大 ,特别 是 ， 中文 比较 词 过 于 繁 
Z, 依靠 比较 词 或 词语 搭配 识别 中 文 比 较 句 很 难 开 
Ro 由 于 名 式 灵 活 多 变 , 也 很 难 将 其 穷尽 。 因此 , 针对 
中 文 比较 句 的 识别 , 首先 要 进行 类 别 划分 , 每 种 类 别 
中 考虑 词汇 与 句 式 特 点 进一步 研究 。 

基于 现 有 的 框架 ( 见 图 2) 及 其 不 足 , 未 来 可 开展 的 
研究 方向 如 图 3 所 示 。 

基于 在 线 评论 的 比较 观点 挖掘 分 为 三 个 子 任务 : 
比较 名 识别、 比较 关系 提取 、 比较 观点 倾向 性 分 析 , 它 
们 是 层 层 递 进 关 系 。 对 于 比较 句 识 别 , 进一步 的 研究 
工作 应 集中 在 不 同类 别 比 较 句 和 隐形 比较 关系 的 识别 
上 。 借鉴 已 有 的 比较 语言 学 研究 成 果 , 采用 自然 语言 
处 理 与 机 器 学 习 技术 , 识别 在 线 评论 中 的 比较 句 并 标 
记 类 别 。 这 一 工作 尽管 基础 , 但 是 对 后 续 的 研究 是 至 
关 重 要 的 。 

而 对 于 比较 关系 抽取 , 需要 构建 实体 名 称 词典 ， 
结合 实体 抽取 , 语义 与 关联 挖掘 等 技术 对 识别 出 的 比 


性 ， 比 较 结果 蕴含 在 比较 句 中。 但 是 ， 有 些 比较 结果 需 
要 根据 语 境 才能 得 出 。 对 于 这 类 比较 结果 的 倾向 性 分 
析 ， 需 要 通过 语义 分 析 、 句 法 依存 等 方法 完成 。 此 外 ， 
比较 观点 的 情感 强度 应 是 未 来 的 研究 热点 , 不 同 产品 
之 间 的 差距 大 小 需要 明确 。 进 而 可 以 对 众多 产品 进行 
热度 分 析 、 苋 争 对 手 识别 与 竞争 力 分 析 。 

(5) 比较 观点 挖掘 与 可 视 化 技术 相 结合 

比较 是 一 种 抽象 的 概念 ， 如果 能 结合 定量 的 方法 
将 其 可 视 化 直观 化 , 能 清晰 地 表明 观点 , 便于 读者 的 


较 句 进行 要 素 提 取 。 并 且 , 在 线 评论 是 非 结 构 化 文本 ， 
需要 分 析 评 论语 句 的 句法 结构 ,才能 准确 抽取 比较 关 


比较 观点 倾向 性 分 析 是 比较 观点 挖掘 的 核心 , 现 
有 的 情感 分 析 研 究 已 较为 成 熟 , 进一步 的 研究 应 关注 
比较 观点 的 应 用 ,如 构建 比较 特征 网 络 , 挖掘 潜在 竞 
争 对 手 ， 了 解 自 身 与 竞争 对 手 产品 的 优 缺 点 ， 进 而 进 
行 改善 ,提高 竞争 力 。 这 一 研究 有 助 于 消费 者 明晰 不 
同 产品 的 对 比 信息 ,辅助 决策 。 并 且 能 够 促进 生产 三 


理解 。 结 合 现 有 的 一 些 技术 , 将 比较 关系 定量 化 、 可 


商 快速 应 对 市 场 的 变化 , 帮助 销售 商 得 到 产品 反馈 信 


视 化 , 能 更 好 地 将 研究 成 果 应 用 到 实际 当中 。 特 别 是 
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息 , 调整 战略 , 增加 销售 利润 。 
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基于 现 有 研究 成 果 ， 研 究 在 
线 评论 文本 比较 句 的 特点 
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本 文 介绍 了 面向 在 线 评论 的 比较 观点 挖掘 研 究 进 
展 。 重 点 对 比较 句 式 、 比 较 名 识别、 比较 关系 提取 、 
比较 观点 倾向 性 分 析 及 应 用 等 方面 的 研究 进行 了 总 
结 。 对 比较 句 、 比 较 句 识别 等 概念 进行 界定 ; 从 比较 
句 的 语法 结构 、 语 义 及 显 隐 性 角度 进行 比较 句 式 研究 
概述 ; 结合 比较 句 式 研究 成 果 , 分 别 基 于 类 别 序列 规 
则 、 比 较 模 式 库 、 特 征 关键 词 等 方法 对 比较 句 的 自动 
识别 进行 概述 ; 分 别 基于 标签 序列 规则 、 条件 随 机 场 、 
语义 角色 标注 等 方法 对 比较 关系 提取 研究 进行 概述 ; 
在 比较 要 素 抽 取 基 础 上 ,对 比较 观点 倾向 性 的 相关 研 
究 进行 总 结 ; 介绍 了 比较 观点 挖掘 研究 的 相关 应 用 型 
研究 。 最 后 ,对 面向 在 线 评论 的 比较 观点 挖掘 研究 进 
行 评述 , 并 提出 一 个 框架 供 将 来 研究 参考 。 
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Abstract: [Objective] This paper reviews leading research methodologies and related studies on comparative opinion 
mining, and then provides useful guidance for future research. [Coverage] We retrieved 55 scholarly papers from the 
WoS, Google Scholar and CNKI. Using the keywords of "comparative opinion", "comparative sentence" or 
"comparative relation". [Methods] Based on the retrieved literature, we discussed the latest development in 
classification schemes, recognizing comparative sentences, extracting comparative relations and analyzing sentiments 
of the comparative opinion. [Results] Due to the finite sequence rules, it was difficult for us to further improve the 
performance of comparative opinion recognition techniques. Meanwhile, few studies focused on the latent comparative 
opinion, and the current technology could not extract the comparative elements effectively. More research was needed 
to conduct fine-grained sentiment analysis with comparative opinion. [Limitations] We did not examine different 
methods of comparative opinion mining. [Conclusions] This paper presents a framework for future studies. New 
research should focus on identifying and tracking potential competitors, analyzing competitive edges of products, as 
well as providing comparative reports for different products. 
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